Librement adapté du tutoriel d’Aurélien Berra
Voyant Tools est un environnement d’analyse, de lecture et de visualisation de textes numériques. (Rockwell et Sinclair, 2016)
Voyant Tools is a web-based text analysis, reading and visualization environment. Developed by a small team of digital humanities scholars led by Stéfan Sinclair and Geoffrey Rockwell, Voyant Tools is designed for a very wide range of applications and users, from students to researchers and journalists to market analysts. It strives to balance user-friendliness with a range of analytic and interpretive functions.
(Readme de l’entrepôt GitHub contenant le code de Voyant Tools)
Analytical tools are instantiations of interpretive methods that can be woven closely into other hermeneutical things, like text (Rockwell et Sinclair, 2016)
Observez le nuage de mots précédent et disponible également à https://lstu.stemy.me/mary.
Quand vous aurez réfléchi à ces questions, manipulez les paramètres du nuage :
Termes/TermsAvec-vous vu :
/Reader`Contextes/ContextsLe concordancier (du type Keyword in Context, KWIC).
Pour observer plus méthodiquement l’environnement de travail complet, revenez à la page d’accueil de Voyant (en cliquant sur l’icône de la maison dans le bandeau bleu tout en haut de la fenêtre) et ouvrez l’un des deux corpus proposés par défaut sous le bouton « Ouvrir », le corpus de Shakespeare.
La configuration par défaut de Voyant combine un ensemble d’outils, ou modules, qui sont complémentaires et parfois coordonnés. Remarquez que des panneaux supplémentaires sont présents lorsque vous travaillez sur une collection de textes, comme c’est le cas dans cette série de pièces.
Pour naviguer dans cet environnement, vous devez comprendre quelques principes de fonctionnement d’une vue :
Avant de remplacer un outil par un autre dans un panneau, en cliquant sur l’icône de la fenêtre, prenez le temps de regarder la liste des outils. Elle est structurée en catégories non exclusives, selon les échelles de lecture et les types de présentation.
Voyant Tools propose actuellement 24 outils en ligne (voir la documentation). Certains d’entre eux font partie des fondements de la linguistique de corpus ou de la linguistique computationnelle (dénombrement, concordance, co-occurrence), certains sont en vogue dans les humanités numériques (modélisation thématique, ou topic modelling), certains sont plus expérimentaux ou artistiques (lesquels, à votre avis ?). D’autres outils sont en préparation (par exemple un outil de cartographie lié à une fonction de reconnaissance des entités nommées).
Vous verrez bientôt les différents moyens de créer un corpus en important du texte.
Testez par vous-même les fonctions d’export, qui dépendent de l’outil concerné. Elles peuvent fournir :
Notez qu’il est parfois utile d’ouvrir plusieurs interfaces et de comparer des corpus, par exemple une version sans lemmatisation et une version lemmatisée d’un texte, ou bien un texte dans sa langue originale et une traduction.
Vous aurez déjà constaté que la fonction d’aide apparaît dans tous les panneaux, sous le point d’interrogation.
Voici les outils essentiels que je vous propose de passer en revue :
Résumé/Summary offre une synthèse quantitative du corpus.
Documents rappelle la structure du corpus.
Syntagmes/Phrases détecte les groupes de mots récurrents.
Tendances/Trends met en évidence la distribution du ou des termes sélectionnés au sein du corpus, lequel est découpé en fonction des documents qui le constituent ou en segments d’égale longueur.
Corrélations/Correlations met en rapport des paires de termes et mentionne leur degré statistique de corrélation.
Collocations/Collocates fournit également une liste des paires de mots apparaissant souvent dans les mêmes contextes.
Liens/Links propose une visualisation des termes fréquemment liés. Double-cliquez sur un terme pour accéder à des options.
Nuage de points/Scatter plot est une approche graphique des distances entre termes ou entre documents, selon diverses méthodes d’analyse bien connues, dont l’analyse des correspondances et l’analyse en composants principaux. Je vous conseille pour un outil comme celui-ci de redimensionner le panneau ou d’exporter une vue dans une fenêtre à part. Zoomez en sélectionnant une zone et dézoomez en double-cliquant. Double-cliquez sur un point pour le supprimer du graphique ou en faire le centre des calculs de proximité. Explorez les options des panneaux latéraux, en particulier le choix du nombre de grappes (clusters) et du nombre de dimensions d’analyse.
Thèmes/Topics réalise une modélisation thématique : tous les termes du corpus sont algorithmiquement regroupés dans des « sacs de mots » selon leurs co-occurrences et le lecteur peut voir émerger des ensembles sémantiques, des bizarreries à expliquer ou des absurdités apparentes qui invitent à modifier les paramètres ou réfléchir plus longuement aux données. Faites des essais.
Pour charger vos corpus dans Voyant, utilisez la version locale que vous avez installée sur votre ordinateur (voyez la section « Préparatifs » ci-dessus) ou bien l’un des serveurs suivants : http://voyant.tools.huma-num.fr ou https://voyant-tools.org, qui afficheront par défaut une interface dans la langue de votre navigateur.
La langue de l’interface peut être modifiée dès la page d’accueil et à tout moment en cliquant sur l’icône prévue à cet effet (voir la documentation). Remarquez cependant que la langue est l’un des paramètres qui peuvent être contrôlés par une modification de l’URL de base : https://voyant.tools.huma-num.fr/?lang=fr affiche l’interface en français, tandis que http://voyant.tools.huma-num.fr/?lang=en affiche l’interface en anglais.
De la même façon, l’URL de votre corpus peut vous servir de signet, si vous copiez la chaîne de caractères qui constitue son identifiant unique (essayez d’ajouter à l’URL de base ?corpus=75b440214b14d5402b2d9ab1e0150d17 – reconnaissez-vous le texte ?). Les corpus créés sur le serveur de Voyant Tools ont une certaine pérennité : ils demeurent accessibles tant qu’ils sont visités régulièrement, par exemple une fois toutes les trois semaines.
Voyant vous autorise à créer un corpus de plusieurs manières. L’Unicode (UTF-8) est recommandé et le texte brut est le format le plus typique, mais le plus souvent d’autres encodages et formats fonctionneront parfaitement.
Si le format de vos fichiers sources pose un problème, pensez qu’il est généralement facile de les convertir dans un autre format (Pandoc est un outil de salubrité publique et les scripts de transformation du consortium TEI sont efficaces). En passant, je vous recommande de travailler dans un éditeur de texte, et non seulement dans des logiciels de traitement de texte comme Libre Office ou Word, qui visent surtout la présentation imprimée : Atom est disponible pour tout système d’exploitation, par exemple.
Ensemble d’outils très accommodant du point de vue des langues et des formats, Voyant Tools est une plateforme d’analyse textuelle et, en tant que telle, demeure résolument logo-centrique et texto-centrique. Vous n’y trouverez pas d’outil pour analyser des images d’imprimés ou de manuscrits, pour aligner textes et images ou pour traiter des flux audio ou vidéo.
Voici quelques exemples, à l’occasion desquels je précise certains points. Les fichiers mentionnés sont disponibles dans le dossier data de ce même entrepôt (pour les télécharger, faites un clic droit, CTRL-clic ou un clic à deux doigts, en fonction de la configuration de votre système).
Avant de charger ces corpus, prenez le temps de découvrir les options d’import. Il s’agit de fonctions avancées, qui vous permettent de nommer votre corpus, de ne charger qu’une partie du texte (grâce à des expressions rationnelles pour le texte brut, à des expressions XPath pour le XML, à des sélecteurs en CSS pour le HTML), de préciser les options d’import des tableaux, d’imposer une langue ou un mode de segmentation et de protéger votre corpus par un mot de passe. Dans cette fenêtre d’options, les titres des rubriques contiennent des liens vers la documentation.
Puisqu’il est question d’URL, j’insère ici deux exemples d’intégration à une page HTML : exemple 1 et code correspondant ; exemple 2, issu de la documentation de Voyant.
wget (vous obtenez par exemple ces fichiers HTML).Il est temps pour moi de vous laisser expérimenter.
Outre la version française (sur le serveur de Voyant Tools ou sur celui d’Huma-Num), des versions dans d’autres langues sont mises en ligne à mesure que des collègues traduisent l’interface. La version serveur de Voyant Tools vous permet de faire fonctionner localement la plateforme. Le code de la plateforme est publié en open source (licence GPL).
Pour plus de détails, consultez le manuel de Voyant Tools (licence CC-BY). Un tutoriel anglophone destiné à servir de base pour l’organisation d’ateliers ou de formations est en cours de rédaction. Pour savoir qui a fait quoi, selon quels principes et en employant quelles technologies, la page About de cette documentation est tout indiquée. La Gallery fournit des exemples variés et le site Hermeneuti.ca illustre l’insertion de panneaux de Voyant dans des essais en ligne.
Geoffrey Rockwell et Stéfan Sinclair. 2016. Hermeneutica: Computer-Assisted Interpretation in the Humanities. MIT Press, Cambridge, MA, USA, éditions, avril.